我们为基于语义信息(称为ConceptBeam的语义信息)提出了一个新颖的框架。目标语音提取意味着在混合物中提取目标扬声器的语音。典型的方法一直在利用音频信号的性能,例如谐波结构和到达方向。相反,ConceptBeam通过语义线索解决了问题。具体来说,我们使用概念规范(例如图像或语音)提取说话者谈论概念的演讲,即感兴趣的主题。解决这个新颖的问题将为对话中讨论的特定主题等创新应用打开门。与关键字不同,概念是抽象的概念,使直接代表目标概念的挑战。在我们的方案中,通过将概念规范映射到共享的嵌入空间,将概念编码为语义嵌入。可以使用由图像及其口语字幕组成的配对数据进行深度度量学习来构建这种独立的空间。我们使用它来桥接模式依赖性信息,即混合物中的语音段以及指定的,无模式的概念。作为我们方案的证明,我们使用与口语标题相关的一组图像进行了实验。也就是说,我们从这些口语字幕中产生了语音混合物,并将图像或语音信号用作概念指定符。然后,我们使用已识别段的声学特征提取目标语音。我们将ConceptBeam与两种方法进行比较:一种基于从识别系统获得的关键字,另一个基于声音源分离。我们表明,概念束明显优于基线方法,并根据语义表示有效提取语音。
translated by 谷歌翻译
公共网站上可用的音频数据量正在迅速增长,并且需要有效访问所需数据的有效机制。我们提出了一种基于内容的音频检索方法,该方法可以通过引入辅助文本信息来检索与查询音频相似但略有不同的目标音频,该信息描述了查询和目标音频之间的差异。虽然传统基于内容的音频检索的范围仅限于与查询音频相似的音频,但提出的方法可以通过添加辅助文本查询模型的嵌入来调整检索范围,以嵌入查询示例音频中的嵌入共享的潜在空间。为了评估我们的方法,我们构建了一个数据集,其中包括两个不同的音频剪辑以及描述差异的文本。实验结果表明,所提出的方法比基线更准确地检索配对的音频。我们还基于可视化确认了所提出的方法获得了共享的潜在空间,在该空间中,音频差和相应的文本表示为相似的嵌入向量。
translated by 谷歌翻译
我们介绍了声学场景和事件的检测和分类的任务描述(DCASE)2022挑战任务2:“用于应用域通用技术的机器状况监控的无监督异常的声音检测(ASD)”。域转移是ASD系统应用的关键问题。由于域移位可以改变数据的声学特征,因此在源域中训练的模型对目标域的性能较差。在DCASE 2021挑战任务2中,我们组织了一个ASD任务来处理域移动。在此任务中,假定已知域移位的发生。但是,实际上,可能不会给出每个样本的域,并且域移位可能会隐含。在2022年的任务2中,我们专注于域泛化技术,这些技术检测异常,而不论域移动如何。具体而言,每个样品的域未在测试数据中给出,所有域仅允许一个阈值。我们将添加挑战结果和挑战提交截止日期后提交的分析。
translated by 谷歌翻译
Many e-commerce marketplaces offer their users fast delivery options for free to meet the increasing needs of users, imposing an excessive burden on city logistics. Therefore, understanding e-commerce users' preference for delivery options is a key to designing logistics policies. To this end, this study designs a stated choice survey in which respondents are faced with choice tasks among different delivery options and time slots, which was completed by 4,062 users from the three major metropolitan areas in Japan. To analyze the data, mixed logit models capturing taste heterogeneity as well as flexible substitution patterns have been estimated. The model estimation results indicate that delivery attributes including fee, time, and time slot size are significant determinants of the delivery option choices. Associations between users' preferences and socio-demographic characteristics, such as age, gender, teleworking frequency and the presence of a delivery box, were also suggested. Moreover, we analyzed two willingness-to-pay measures for delivery, namely, the value of delivery time savings (VODT) and the value of time slot shortening (VOTS), and applied a non-semiparametric approach to estimate their distributions in a data-oriented manner. Although VODT has a large heterogeneity among respondents, the estimated median VODT is 25.6 JPY/day, implying that more than half of the respondents would wait an additional day if the delivery fee were increased by only 26 JPY, that is, they do not necessarily need a fast delivery option but often request it when cheap or almost free. Moreover, VOTS was found to be low, distributed with the median of 5.0 JPY/hour; that is, users do not highly value the reduction in time slot size in monetary terms. These findings on e-commerce users' preferences can help in designing levels of service for last-mile delivery to significantly improve its efficiency.
translated by 谷歌翻译
光环伴形培养基中的离子气体通过热阳光阳光层(TSZ)效应在宇宙微波背景上留下烙印。来自活性银河核(AGN)和超新星的反馈会影响晕孔集成TSZ通量的测量($ y_ \ mathrm {sz} $),并导致其与光晕质量的关系($ y_ \ mathrm {sz} -mm $ )偏离病毒定理的自相似幂律预测。我们对使用骆驼,一套流体动力模拟的套件进行了全面研究,反馈处方的差异很大。我们使用两个机器学习工具(随机森林和符号回归)的组合来搜索$ y-m $关系的类似物,这对低质量的反馈过程($ m \ sillesim 10^{14} \,h^, {-1} \,m_ \ odot $);我们发现,仅替换$ y \ rightarrow y(1+m _*/m_ \ mathrm {gas})$在关系中使其非常相似。这可以用作低质量簇和星系组的强大多波长质量代理。我们的方法通常对于提高其他天体分级关系的有效性领域通常也很有用。我们还预测,$ y-m $关系的测量值可以在反馈参数的某些组合和/或排除超级新闻和AGN反馈模型的主要部分,以提供百分比的约束。艺术流体动力模拟。我们的结果对于使用即将进行的SZ调查(例如SO,CMB-S4)和Galaxy Surveys(例如Desi和Rubin)来限制Baryonic反馈的性质。最后,我们发现,$ y-m _*$的另一种关系提供了有关反馈的补充信息,而不是$ y-m $。
translated by 谷歌翻译
在本文中,我们开发了一种使用深神经网络(DNNS)的非组织和非线性时间序列的自适应非参数估计的一般理论。我们首先考虑两种类型的DNN估计量,非含糖和稀疏的DNN估计器,并为一般非平稳时间序列建立其泛化误差界限。然后,我们得出最小值下限,以估计属于一类非线性自回旋(AR)模型的平均功能,这些功能包括非线性通用添加剂AR,单个索引和阈值AR模型。在结果的基础上,我们表明稀疏的DNN估计量具有自适应性,并达到了许多非线性AR模型的最小最佳速率,直至多构型因子。通过数值模拟,我们证明了DNN方法在估计具有内在的低维结构和不连续或粗糙平均功能的非线性AR模型的有用性,这与我们的理论一致。
translated by 谷歌翻译
建立能够具有丰富人类的对话能力的开放域对话系统是语言产生中的基本挑战之一。但是,即使该领域的最新进展,现有的开放域生成模型也无法捕获和利用外部知识,从而导致对看不见的话语的重复或通用响应。当前关于知识对话生成的工作主要集中于角色融合或搜索基于事实的结构化知识来源(例如Wikipedia)。我们的方法采用了更广泛,更简单的方法,旨在通过在社交媒体上发现的随意互动模仿人类的反应行为来提高系统的原始对话能力。该模型利用联合检索器生成器设置,从Reddit查询一组过滤的评论数据,以充当SEQ2SEQ生成器的附加上下文。对开放域对话数据集的自动和人类评估证明了我们方法的有效性。
translated by 谷歌翻译
没有一致响应的对话系统并不令人着迷。在这项研究中,我们建立了一个对话系统,可以根据给定的角色设置(角色)响应以带来一致性。考虑到语言模型迅速增加的趋势,我们提出了一种使用迅速调整的方法,该方法在预训练的大规模语言模型上使用了低学习成本。英语和日语中自动和手动评估的结果表明,可以使用比微调更少的计算资源来构建具有更自然和个性化响应的对话系统。
translated by 谷歌翻译
我们的目标是克服当前对话系统的响应中缺乏多样性,并开发作为对话伙伴的对话系统。我们提出了一个生成器评估器模型,该模型评估了响应生成器生成的多个响应,并选择了评估器的最佳响应。通过产生多个响应,我们获得了多种响应。我们进行人体评估,将提议系统的输出与基线系统的输出进行比较。人类评估的结果表明,拟议系统的响应通常被认为比基线系统更好,并指出了拟议方法的有效性。
translated by 谷歌翻译
在使用深神经网络的现有图像分类系统中,图像分类所需的知识隐含在模型参数中。如果用户想更新此知识,则需要微调模型参数。此外,用户无法验证推理结果的有效性或评估知识对结果的贡献。在本文中,我们研究了一个存储图像分类知识的系统,例如图像特征图,标签和原始图像,而不是模型参数,而是在外部高容量存储中。我们的系统在对输入图像进行分类时,像数据库一样引用存储。为了增加知识,我们的系统会更新数据库,而不是微调模型参数,从而避免了在增量学习方案中灾难性的遗忘。我们重新访问一个KNN(K-Nearest邻居)分类器,并在我们的系统中使用它。通过分析KNN算法引用的邻域样本,我们可以解释过去如何将知识用于推理结果。我们的系统在ImageNet数据集上实现了79.8%的TOP-1精度,而在预处理后无需微调模型参数,而在任务增量学习设置中,在Split CIFAR-100数据集中获得了90.8%的精度。
translated by 谷歌翻译